在电缆驱动的平行机器人(CDPR)中,单个电缆故障通常会导致整个机器人的完全故障。但是,通常可以通过重新配置框架上的电缆附件来恢复丢失的静态工作空间(由于故障)。通过将运动冗余以在实时冗余分辨率控制器中操纵的移动线性滑块的形式添加到机器人中,从而引入了此功能。提出的工作将该控制器与在线故障检测框架相结合,以开发自动任务恢复的完整失误耐受控制方案。该解决方案通过将最终效应器的姿势估计与仅依靠最终效应器信息的交互式多重模型(IMM)算法相结合,从而提供了鲁棒性。然后将故障和姿势估计方案绑定到冗余分辨率方法中,以产生无缝的自动任务(轨迹)恢复方法,以实现电缆故障。
translated by 谷歌翻译
Text-to-text generation models have increasingly become the go-to solution for a wide variety of sequence labeling tasks (e.g., entity extraction and dialog slot filling). While most research has focused on the labeling accuracy, a key aspect -- of vital practical importance -- has slipped through the cracks: understanding model confidence. More specifically, we lack a principled understanding of how to reliably gauge the confidence of a model in its predictions for each labeled span. This paper aims to provide some empirical insights on estimating model confidence for generative sequence labeling. Most notably, we find that simply using the decoder's output probabilities is not the best in realizing well-calibrated confidence estimates. As verified over six public datasets of different tasks, we show that our proposed approach -- which leverages statistics from top-$k$ predictions by a beam search -- significantly reduces calibration errors of the predictions of a generative sequence labeling model.
translated by 谷歌翻译
Recently, Robey et al. propose a notion of probabilistic robustness, which, at a high-level, requires a classifier to be robust to most but not all perturbations. They show that for certain hypothesis classes where proper learning under worst-case robustness is \textit{not} possible, proper learning under probabilistic robustness \textit{is} possible with sample complexity exponentially smaller than in the worst-case robustness setting. This motivates the question of whether proper learning under probabilistic robustness is always possible. In this paper, we show that this is \textit{not} the case. We exhibit examples of hypothesis classes $\mathcal{H}$ with finite VC dimension that are \textit{not} probabilistically robustly PAC learnable with \textit{any} proper learning rule. However, if we compare the output of the learner to the best hypothesis for a slightly \textit{stronger} level of probabilistic robustness, we show that not only is proper learning \textit{always} possible, but it is possible via empirical risk minimization.
translated by 谷歌翻译
顺序标记是一项基本的NLP任务,构成了许多应用程序的骨干。对SEQ2SEQ模型的监督学习(如T5)在这些问题上取得了巨大的成功。但是,这些模型的培训目标与我们在实际应用中关心的指标和Desiderata之间存在显着脱节。例如,实用的序列标记应用程序可能需要优化某些Precision-Recall折衷(TOP-K预测),这与最大化金标记序列的可能性的标准目标完全不同。因此,为了弥合这一差距,我们提出了Groot,这是一个简单而有效的框架,用于生成文本序列的奖励优化。 Groot通过训练生成的顺序标记模型来工作,以将解码器输出分布与(Black-Box)奖励函数的输出分布相匹配。使用迭代培训制度,我们首先生成预测候选者,然后纠正其中的错误,最后对比这些候选者(基于其奖励价值)。正如通过四个公共基准测试的广泛实验所证明的那样,Groot显着改善了所有奖励指标。此外,Groot还导致了整体解码器分布的改善,这是由顶级$ K $候选者的质量提高所证明的。
translated by 谷歌翻译
检索演示的生成模型比独立语言模型提供了许多好处:除了对给定查询的文字答案外,它们还提供了从可更新知识库中检索到的出处项目。但是,它们也是更复杂的系统,需要处理长输入。在这项工作中,我们介绍了FID Light,以强烈提高最先进的检索功能模型的效率,同时保持相同的有效性。我们的FID光模型将信息流从编码器(分别编码段落)限制为解码器(使用串联编码表示)。此外,我们通过文本源指针通过重新排列的功能调整FID光,以提高排名最高的出处精度。我们对七个知识密集任务(KILT)的各种实验表明,FID光线始终改善了查询潜伏期和有效性之间的帕累托前沿。带有源指向的FID光设置为六个苏格兰短裙任务的新最新结果,用于合并文本生成和出处检索评估,同时保持合理的效率。
translated by 谷歌翻译
我们通过实验验证一个实时机器学习框架,能够控制拉曼放大器的泵功率值以在二维(2D)中塑造信号功率演变:频率和光纤距离。在我们的设置中,优化了四个一阶反向传输泵的功率值,以实现所需的2D功率配置文件。泵功率优化框架包括一个卷积神经网络(CNN),然后是差分进化(DE)技术,在线应用于放大器设置,以自动实现目标2D功率配置文件。可实现的2D配置文件的结果表明,该框架能够确保获得的最大绝对误差(MAE)(<0.5 dB)与获得的目标2D配置文件之间。此外,该框架在多目标设计方案中进行了测试,该方案的目标是在跨度结束时达到固定增益水平的2D配置文件,共同在整个光纤长度上进行最小的光谱游览。在这种情况下,实验结果断言,对于目标扁平增益水平的2D轮廓,当设置在泵功率值中不受物理限制时,DE获得的最大增益偏差小于1 dB。模拟结果还证明,有足够的泵功率可用,可以实现更高的目标增益水平的更好的增益偏差(小于0.6 dB)。
translated by 谷歌翻译
从较高的计算效率到实现新颖和复杂结构的发现,深度学习已成为设计和优化纳米光子电路和组件的有力框架。但是,数据驱动和基于勘探的机器学习策略在其对纳米光逆设计的有效性方面都有局限性。监督的机器学习方法需要大量的培训数据,以产生高性能模型,并且在设计空间的复杂性鉴于训练数据之外,难以推广。另一方面,基于无监督和强化学习的方法可以具有与之相关的非常长的培训或优化时间。在这里,我们证明了一种混合监督的学习和强化学习方法来实现纳米光子结构的逆设计,并证明这种方法可以减少训练数据的依赖性,改善模型预测的普遍性,并通过数量级缩短探索性培训时间。因此,提出的策略解决了许多现代深度学习的挑战,同时为新的设计方法开辟了大门,这些方法利用了多种机器学习算法来为光子设计提供更有效和实用的解决方案。
translated by 谷歌翻译
端到端(E2E)模型已成为最新语音识别系统的默认选择。此类型号经过大量标记数据的培训,这些数据通常无法用于低资源语言。诸如自我监督学习和转移学习的诺言之类的技术尚未在培训准确的模型中有效。另一方面,在各种域和扬声器集合上收集标记的数据集非常昂贵。在这项工作中,我们通过公共资料中的印度语言,特别是来自印度广播电台的公共档案馆的印度语言的``采矿''文本和音频对展示了这些方法的廉价和有效替代方案。作为关键组件,我们将Needleman-Wunsch算法调整为与相应的音频片段对齐句子,并给定长音频和其转录本的PDF,同时由于OCR,无关紧要的文本和未转录的语音而对错误进行了强大的态度。因此,我们创建了Shrutilipi,这是一个数据集,其中包含超过6,400个小时的12个印度语言标签的音频,总计为495万个句子。平均而言,Shrutilipi导致2.3倍增加了公开可用的标签数据。我们在12种语言中与21种人类评估者建立了Shrutilipi的质量。我们还根据代表区域,说话者和提到的实体建立了Shrutilipi的多样性。值得注意的是,我们表明,将Shrutilipi添加到WAV2VEC模型的训练集中,导致在Indicsuperb基准上的7种语言中,平均降低了5.8 \%。对于具有最多基准的印地语(7),平均水平从18.8%下降到13.5%。这种改进扩展到有效的模型:对于构象异构体模型(比WAV2VEC小10倍),我们显示出2.3%的下降。最后,我们通过证明对其进行训练的模型对嘈杂的输入更强大,证明了Shrutilipi的多样性。
translated by 谷歌翻译
本文提出了一个基于混合融合的多模式情感识别系统,该系统将语音话语和相应图像描绘的情绪分类为离散类。已经开发了一种新的可解释性技术,以确定重要的语音和图像特征,从而预测特定的情感类别。拟议的系统的体系结构是通过大量消融研究确定的。它融合了语音和图像特征,然后结合了语音,图像和中间融合输出。提出的可解释性技术结合了划分和征服方法,以计算表示每个语音和图像特征的重要性的刻薄值。我们还构建了一个大规模数据集(IIT-R较小的数据集),包括语音话语,相应的图像和班级标签,即“愤怒”,“快乐”,“仇恨”和“悲伤”。拟议的系统已达到83.29%的情绪识别精度。提出的系统的增强性能提倡利用多种模式中的互补信息来识别情绪的重要性。
translated by 谷歌翻译
AI研究中的基石是创建和采用标准化培训和测试数据集,以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解(NLU)模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型,创建了几个特定语言的胶水数据集。语音语言理解(SLU)的领域遵循了类似的轨迹。大型自我监督模型(例如WAV2VEC2)的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务(例如出色的基准测试)上评估这些模型。在这项工作中,我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说,我们做出以下三项贡献。 (i)我们收集了Kathbath,其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。 (ii)使用Kathbath,我们在6个语音任务中创建基准:自动语音识别,扬声器验证,说话者识别(单声道/多),语言识别,逐个示例查询以及对12种语言的关键字发现。 (iii)在发布的基准测试中,我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明,在大多数任务上,特定于语言的微调模型比基线更准确,包括对于语言识别任务的76 \%差距。但是,对于说话者识别,在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。
translated by 谷歌翻译